<!DOCTYPE html>
<html lang="zh-cn">
<head>
    <title>数理统计的基本概念</title>
    <meta charset="utf-8" />
    <link rel="stylesheet" type="text/css" href="../../css/note.css" />
</head>
<body>

<h2>总体与样本</h2>

<ul>
	<li><b>总体 (population)</b>: 一个统计问题所研究的对象的全体.
	</li>
	<li><b>个体 (individual)</b>: 总体的元素. 总体是由个体组成的.</li>
	<li><b>总体容量</b>: 总体中个体的数目. 容量为有限的总体称为有限总体,
		否则称为无限总体.
	</li>
	<li><b>样本 (sample)</b>: 总体中的选出的一部分个体, 用来代表总体.
		从总体中选出样本这一行为称为抽样 (sampling).
	</li>
	<li><b>样本容量 (sample size)</b>: 样本中个体的数目.</li>
	<li><b>样本的两重性</b>: 在得到抽样结果前, 视样本为随机向量
		`(X_1, cdots, X_n)`; 观察到抽样结果后, 视样本为具体的数字 (观察值)
		`(x_1, cdots, x_n)`.
	</li>
	<li><b>样本空间 (sample space)</b>: 样本 `(x_1, cdots, x_n)`
		可能取值的全体.</li>
	数理统计的任务正是<b>统计推断</b>: 已知总体的一个样本,
	对总体分布作出推断.
</ul>

<h3>简单随机样本</h3>

<p> 通常用一个随机变量 `X` 来描述总体,
	把该随机变量服从的分布 `F` 称为总体分布.
	从总体中抽取的样本 `X_1, X_2, cdots, X_n`
	常被假定为<b>简单随机样本</b>,
	即要求它们是<b>独立同分布 (independent and identically
	distributed, i.i.d.)</b>的, 记为
	<span class="formula">
		`X_1, X_2, cdots, X_n "i.i.d"~ F`,
	</span>
	若 `F` 有密度 `f`, 也记为
	<span class="formula">
		`X_1, X_2, cdots, X_n "i.i.d"~ f`,
	</span>
	我们常对总体和总体分布不加以区分, 因此也记
	<span class="formula">
		`X_1, X_2, cdots, X_n "i.i.d"~ X`.
	</span>
	产生简单随机样本的过程称为简单随机抽样.
	简单随机抽样可以视为 `n` 次重复独立试验.
</p>

<ol class="remark">
	<li>服从正态分布的总体称为正态总体, 服从 Bernoulli 分布的总体称为
		Bernoulli 总体, 等等.</li>
	<li>在独立同分布的假定下, 概率论中的许多结论便有用武之地了.
		今后在无特别说明的情况下, 样本都指简单随机样本.</li>
</ol>

<h2>统计量</h2>

<p>	为了对总体作出统计推断, 常常基于已知的样本, 构造样本的函数.
	如果这个函数不含未知参数, 则称它为一个<b>统计量 (statistic)</b>.
</p>

<h3>矩统计量</h3>

<ol class="definition">
	设 `X_1, X_2, cdots, X_n` 为总体 `X` 的一个样本.
	常用的<b>矩统计量</b>有:
	<li><b>样本均值 (sample mean)</b>:
		<span class="formula">
			`bar X = 1/n sum_(i=1)^n X_i`.
		</span>
	</li>
	<li><b>样本方差 (sample variance)</b>:
		<span class="formula">
			`S^2 = 1/(n-1) sum_(i=1)^n (X_i-bar X)^2`.
		</span>
		`S = sqrt(S^2)` 称为<b>样本标准差</b>.
		`S^2` 又称为<b>修正样本方差</b>. 使用修正样本方差, 最大的好处是
		`E(S^2) = D X`, 即用修正样本方差来估计总体方差 `D X`
		时没有系统的偏差, 属于<b>无偏估计</b>.
	</li>
	<li><b>样本 `k` 阶原点矩</b>:
		<span class="formula">
			`a_k = 1/n sum_(i=1)^n X_i^k`, `quad k = 1, 2, cdots`.
		</span>
		1 阶原点矩就是样本均值.
	</li>
	<li><b>样本 `k` 阶中心矩</b>:
		<span class="formula">
			`m_k = 1/n sum_(i=1)^n (X_i-bar X)^k`, `quad k = 2, 3, cdots`.
		</span>
		`k = 1` 时, 上式恒为零, 是平凡的情形.
		`k = 2` 时, 上式表示未修正的样本方差.
	</li>
	<li>最后, 设 `(X_1, Y_1), cdots, (X_n, Y_n)` 是二维总体 `(X, Y)`
	的一个样本, 则 `X` 和 `Y` 的<b>样本协方差 (sample covariance)</b>
	定义为
	<span class="formula">
		`S_(X Y) = 1/n sum_(i=1)^n (X_i-bar X)(Y_i-bar Y)`.
	</span>
	</li>
</ol>

<p class="remark">
	设 `E X = mu`, `D X = sigma^2`, 计算:
	<span class="formula">
		`E(bar X) = 1/n sum_(i=1)^n E X_i = E X = mu`,<br/>
        `(n-1) E(S^2) = E sum_(i=1)^n (X_i^2 - 2 X_i bar X + {:bar X:}^2)`
        `= E( sum_(i=1)^n X_i^2 - n {:bar X:}^2)`
        `= n[ E(X^2) - E({:bar X:}^2) ]`
		`= n( D X - D bar X )`
		`= n(sigma^2 - sigma^2/n)`
		`= (n-1) sigma^2`.
	</span>
</p>

<h3>次序统计量</h3>

<ol class="definition">
	设 `X_1, X_2, cdots, X_n` 是总体 `X` 的一个样本, 将其按大小次序排列为
	<span class="formula">
		`X_((1)) le X_((2)) le cdots le X_((n))`,
	</span>
	我们定义如下几种<b>次序统计量 (顺序统计量, order statistics)</b>:
	<li><b>样本极值 (extremum of sample)</b>: 样本的极小值 `X_((1))`
		和极大值 `X_((n))` 的统称. `X_((n))-X_((1))` 称为<b>样本极差
			(sample range)</b>.
	</li>
	<li><b>样本中位数 (sample median)</b>:
		<span class="formula">
			`m_(1/2) = {
				X_(((n+1)//2)), if n" is odd";
				1/2[ X_((n//2)) + X_((n//2+1)) ], if n" is even";
			:}`
		</span>
	</li>
	<li><b>样本 `p` 分位数 (sample `p`-quantile)</b>:
		<span class="formula">
			`X_((|__(n+1)p__|))`, `quad 0 lt p lt 1`.
		</span>
		`p = 1/2` 时, 即为样本中位数.
	</li>
</ol>

<h3>枢轴量</h3>

<p> 如果一个样本的函数仅含有一个未知参数, 且这个函数服从的分布已知,
	则称它为一个<b>枢轴量</b>.
</p>

<h3>总体分位数 (分布的分位数)</h3>

<p class="definition">
	设 `F(x)` 是随机变量 `X` 的分布函数, 任给实数 `0 lt alpha lt 1`, 称
	`F_alpha` 是 `F(x)` 的水平 `alpha` 的<b>上侧分位数</b>, 如果
	<span class="formula">
		`P{X gt F_alpha} = alpha`, 即 `F(F_alpha) = 1-alpha`.
	</span>
	特别当 `F(x)` 严格单调时, `F_alpha` 由 `alpha` 唯一确定.
</p>

<ol class="corollary">
	<li>`P{X le F_(1-alpha)} = 1 - P{X gt F_(1-alpha)}`
		`= 1-(1-alpha) = alpha`;
	</li>
	<li>`P{F_(1-alpha/2) lt X le F_(alpha/2)}`
		`= P{X gt F_(1-alpha/2)} - P{X gt F_(alpha/2)}`
		`= 1-alpha/2 - alpha/2 = 1-alpha`.
	</li>
</ol>

<p class="definition">
	设 `F(x)` 是对称分布的随机变量 `X` 的分布函数, 任给实数 `0 lt alpha lt
	1`, 称 `T_alpha` 是 `F(x)` 的水平 `alpha` 的双侧分位数, 如果
	<span class="formula">
		`P{|X| gt T_alpha} = alpha`, 即 `F(T_alpha) = 1-alpha/2`.
	</span>
	假设 `F(x)` 严格单调, 有 `T_alpha = F_(alpha/2)`, `F(alpha) +
	F(1-alpha) = 0`.
</p>

<h2>抽样分布</h2>

<p>	统计量或枢轴量的分布统称为<b>抽样分布</b>.</p>

<ol class="lemma">
  <b>Fisher 引理</b>
  设总体 `X ~ N(mu, sigma^2)`, `X_1, X_2, cdots, X_n` 为样本,
  `bar X` 和 `S^2` 分别为样本均值和样本方差, 则
  <li>`bar X ~ N(mu, sigma^2/n)`;</li>
  <li>`bar X` 与 `S^2` 相互独立;</li>
  <li>`(n-1)/sigma^2 S^2 ~ chi_(n-1)^2`.</li>
</ol>

<ol class="proof">
  <li>由 `X_1, X_2, cdots, X_n` 的独立性知, 它们的联合密度为
    <span class="formula">
      `(2pi sigma^2)^(-n/2) exp sum_(i=1)^n -(x_i-mu)^2/(2sigma^2)`.
    </span>
    取正交变换 `bm Y = bm(A X)`, 其中矩阵 `bm A` 的第一行全为 `1//sqrt n`:
    <span class="formula">
      `bm A = [1/sqrt n, 1/sqrt n, 1/sqrt n, cdots, 1/sqrt n;
        1/sqrt(1 * 2), 1/sqrt(1 * 2), 0, cdots, 0;
        1/sqrt(2*3), 1/sqrt(2*3), 2/sqrt(2*3), cdots, 0;
        vdots, vdots, vdots, , vdots;
        1/sqrt(n(n-1)), 1/sqrt(n(n-1)), 1/sqrt(n(n-1)), cdots, (n-1)/sqrt(n(n-1))
      ]`.
    </span>
    因此
    <span class="formula">
      `Y_1 = 1/sqrt n sum_(i=1)^n X_i = sqrt n * bar X`,<br>
      `sum_(i=1)^n Y_i^2 = |bm Y|^2 = |bm X|^2 = sum_(i=1)^n X_i^2`.
    </span>
    在正交变换下, Jacobi 行列式为 1, 因此 `Y_1, cdots, Y_n` 的联合密度为
    <span class="formula">
      `(2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) sum_(i=1)^n (x_i^2-2 x_i mu + mu^2))`
      `= (2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) (sum_(i=1)^n y_i^2-2 mu sqrt n y_1 + n mu^2))`
      `= (2pi sigma^2)^(-n/2) exp(-1/(2sigma^2) (sum_(i=2)^n y_i^2 + (y_1-sqrt n mu)^2))`.
    </span>
    因此 `Y_1, cdots, Y_n` 相互独立且都服从正态分布, 它们的方差均为
    `sigma^2`, 其中 `Y_1` 的均值为 `sqrt n mu`, 其它 `Y_2, cdots, Y_n`
    的均值为 `0`. 故结论 1. 成立.
  </li>
  <li>
    <span class="formula">
      `(n-1)S^2 = sum_(i=1)^n (X_i^2 - bar X)`
      `sum_(i=1)^n X_i^2 - n bar X^2`
      `= sum_(i=1)^n Y_i^2 - Y_1^2`
      `= sum_(i=2)^n Y_i^2`.
    </span>
    因为 `Y_1, cdots, Y_n` 相互独立, 所以 `S^2` 与 `bar X` 独立.
  </li>
  <li>最后由于 `Y_2, cdots, Y_n overset "iid"~ N(0, sigma^2)`, 因此
    <span class="formula">
      `((n-1)S^2)/sigma^2`
      `= sum_(i=2)^n (Y_i/sigma)^2`
      `~ chi^2(n-1)`.
    </span>
  </li>
</ol>

<ol class="remark">
	事实上, 我们有:
	<li>一组独立同分布的样本,
		其均值和方差独立的充要条件是总体服从正态分布.
	</li>
	<li>Basu 定理: 设 `cc F = {f(x, theta), theta in Theta}` 为一分布族,
	`Theta` 为参数空间. `X_1, cdots, X_n` 是来自 `cc F` 的简单样本.
	当 `T` 是一有界的充分完全统计量 (特别,
	指数族在参数空间有内点时都是充分完全统计量) 时, 构作辅助统计量
	`V`, 使 `V` 与 `theta` 无关. 则对任意 `theta in Theta`, `T, V`
	相互独立.
	</li>
</ol>

<ol class="theorem">
	<b>正态总体的抽样分布</b>
	设总体 `X ~ N(mu, sigma^2)`, `X_1, X_2, cdots, X_n` 为样本,
	`bar X` 和 `S^2` 分别为样本均值和样本方差, 则
	<li>`U := (bar X - mu)/(sigma//sqrt n) ~ N(0,1)`;</li>
	<li>`chi^2 := (n-1)/sigma^2 S^2 ~ chi_(n-1)^2`;
		(记忆: `S^2/sigma^2 ~ (chi_(n-1)^2)/(n-1) = Gamma((n-1)/2,
		(n-1)/2)`)</li>
	<li>`T := (bar X-mu)/(S//sqrt n) ~ t_(n-1)`.</li>
</ol>

<p class="proof">
	结论 1. 由 Fisher 引理的 1. 得到.
	结论 2. 即为 Fisher 引理的结论 2.
	现在证 3. 由于 
	<span class="formula">
		`T = sigma/S U = U/sqrt((n-1)/sigma^2 S^2//(n-1))`
	</span>
	且由 Fisher 引理, `U` 与 `(n-1)/sigma^2 S^2` 相互独立.
	所以由 t 分布的定义知 `T ~ t_(n-1)`.
</p>

<p class="remark">
	枢轴量 `(n-1)/sigma^2 S^2` 可用于估计 `sigma^2` 而无需了解 `mu`,
	`T` 可用于估计 `mu` 而无需了解 `sigma^2`.
</p>

<p class="theorem">
	设总体服从标准正态分布, `T_1` 是样本二阶原点矩的 `n` 倍,
	`T_2` 是样本方差的 `n-1` 倍:
	<span class="formula">
		`T_1 = sum_(i=1)^n X_i^2`,<br/>
		`T_2 = sum_(i=1)^n (X_i-bar X)^2 = sum_(i=1)^n X_i^2 - n bar X^2`.
	</span>
	则 `T_1` 与 `T_2/T_1` 独立, 且
	<span class="formula">
		`T_2/T_1 ~ Be ta((n-1)/2, 1/2)`.
	</span>
</p>

<p class="proof">
	正态总体的样本均值 `bar X` 与样本方差 `S^2` 独立, 所以它们各自的函数
	`T_2 = (n-1)S^2`, `T_1-T_2 = n bar X^2` 之间是独立的.
	又 `T_2 ~ chi_(n-1)^2`, `T_1-T_2 ~ chi_1^2`,
	由 <a href="../prob/5.html#beta-distribution">Beta
		分布的相关定理</a>知, `T_1` 与 `T_2/T_1` 独立, 且 `T_2/T_1
	~ Beta((n-1)/2, 1/2)`.
</p>

<ol class="theorem">
	<b>双正态总体的抽样分布</b>
	设 `X ~ N(mu_1, sigma_1^2)`, `Y ~ N(mu_2, sigma_2^2)`, 分别从总体 `X,
	Y` 中抽取容量为 `m, n` 的样本, 设样本均值分别为 `bar X, bar Y`,
	样本方差分别为 `S_1^2, S_2^2`.
	则
	<li>`U := ((bar X-bar Y)-(mu_1-mu_2))/sqrt(sigma_1^2/m + sigma_2^2/n) ~ N(0,1)`;</li>
	<li>`F := ((S_1//sigma_1)/(S_2//sigma_2))^2 ~ F_(m-1, n-1)`;</li>
	<li>当 `sigma_1 = sigma_2 = sigma` 时,
		<span class="formula">
			`T := ((bar X-bar Y)-(mu_1-mu_2))/(S sqrt(1/m+1/n)) ~
			t_(m+n-2)`,
		</span>
		其中 `S^2` 是样本方差的加权平均:
		<span class="formula">
			`S^2 := (m-1)/(m+n-2) S_1^2 + (n-1)/(m+n-2) S_2^2`.
		</span>
	</li>
</ol>

<ol class="theorem">
	<b>极限分布与大样本性质</b>
	设总体 `X` 的均值与方差分别为 `mu, sigma^2`,
	样本均值与样本方差分别为 `bar X, S^2`, 则当样本容量 `n to oo` 时
	<li>`U_n := (bar X-mu)/(sigma//sqrt n) overset L to N(0,1)`;</li>
	<li>`T_n := (bar X-mu)/(S//sqrt n) overset L to N(0,1)`.</li>
</ol>

<p class="proof">
	结论 1. 由 Lindeberg-Lévy 中心极限定理得到.
</p>

<script src="../../js/note.js?type=math"></script>
</body>
</html>
